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摘要 : 【目的 】 提 出 一 种 基于 情感 分 析 技 术 自动 识别 特定 领域 谣言 的 方法 。[ 方法 】 界定 高 、 低 质量 信息 源 , 在 
假设 高 质量 信息 源 信 息 更 可 靠 的 情况 下 , 通过 基于 情感 词典 的 情感 分 析 方 法 , 量化 高 质量 信息 源 与 低 质 量 信息 
源 对 特定 对 象 的 情感 差异 ,判定 低 质量 信息 源 提供 的 信息 是 否 属 于 谣言 。【 结果 ] 将 该 方法 应 用 于 “食品 养生 ”、 
“医学 健康 ”两 个 领域 进行 谣言 识别 。 在 30 个 疑似 谣言 案例 中 准确 识别 出 23 个 谣言 案例 ， 准 确 率 为 76.67%。 
本 文 提 出 的 谣言 识别 方法 在 谣言 预测 方面 的 F 值 为 83.34%, 查 全 率 为 71.42%, 查 准 率 为 100%; 在 非 谣 言 文本 预测 
上 的 了 值 为 72.73%, 查 全 率 为 100%, 查 准 率 为 57.14%。[ 局 限 ] 未 实现 不 同 信息 源 数据 自动 抽取 , 每 个 谣言 案例 
下 的 人 工 收集 的 谣言 数量 有 限 。[ 结论 】 本 文 基 于 情感 分 析 的 谣言 识别 方法 对 特定 类 型 的 谣言 是 有 效 的 。 
关键 词 : 情感 分 析 ”情感 词典 ”谣言 检测 ”谣言 识别 
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识别 方法 ， 以 不 同 质量 信息 源 的 文本 情感 冲突 识别 特 
定 领域 的 网 络 谣言 。 


了 中 


1 5] 
谣言 是 一 种 普遍 的 社会 舆论 现象 中 不 同学 者 对 


谣言 的 具体 内 涵 给 予 不 同 定义 : 《现代 汉语 词典 ) 中 对 2 相关 研究 
谣言 的 定义 为 “没有 事实 根据 的 消息 ”1, WER RE 21 情感 分 析 方法 识别 技术 
言 定义 为 : “一 种 来 路 不 明 的 、 传 无 根据 的 、 内 容 没有 情感 分 析 又 称 意见 挖掘 ， 是 指 通过 对 用 户 发 表 的 


得 到 确认 的 ， 缺 乏 事实 根据 的 信息 ”。 总 体 而 言 ， 缺乏 ”内容 文本 进行 主客 观 观点 、 情 绪 、 极 性 的 分 析 和 挖掘， 
事实 依据 的 谣言 具有 强烈 说 服 他 人 相信 某 种 信息 的 目 ”判断 文本 的 情感 倾向 分 类 器。 目前 ,情感 分 析 方法 主要 
Hj, 往往 采用 夸张 语言 风格 ， 有 强烈 的 情绪 化 特征 。 有 基于 情感 词 由 和 机 器 学 习 的 方法 。 

新 的 传播 媒介 的 诞生 与 发 展 使 谣言 的 传播 速度 更 (1) 基于 情感 词典 方法 的 情感 分 析 技术 的 核心 是 
快 、 影 响 范 围 更 大 。 谣 言 干 扰 公 民 已 有 认 知 ,进一步 ”构建 特定 的 情感 词典 ，TongI 通 过 人 工 抽取 与 电影 影 
导致 公众 非 理 性 行为 , 危害 社会 安定 。 及 时 识别 谣言 ” 评 相 关 的 词汇 ,人工 标注 情感 词 极 性 , 建立 专门 的 情 
并 扼 制 谣言 传播 , 净化 网 络 环境 ,是 当前 网 络 环 境 下 感 词典 。 中 文 方面 , 通用 词典 有 大 连理 工大 学 情感 词 
一 个 重要 议题 。 如 何 准确 、 高 效 地 识别 网 络 谣言 , 是 。 汇 本 体 库 趾 、 知 网 HowNetg 情 感 词典 等 ; 在 专用 词典 


控制 谣言 传播 首要 且 关 键 的 步骤。 方面 , 陈晓东 外 构建 了 一 个 面向 微 博 的 情感 词典 。 
情感 分 析 技 术 可 以 识别 语 料 的 情感 倾向 及 程度 ， Q) 基于 机 器 学 习 方 法 的 情感 分 析 技 术 核 心 是 构 


其 在 用 户 意 见 挖 气 、 政 府 民 意 调查 等 多 方面 都 具有 广 。  ” 建 分 类 器 , 对 语 料 进 行情 感 分 类 。 目 前 机 器 学 习 的 分 
泛 应 用 四。 由 网络 谣 言 具 有 夸张 语言 风格 、 异 常情 感 ”类 算法 有 支持 向 量 机 、 朴 素 贝 叶 斯 等 。 
地 征 的 特点 , 本文 提 出 一 种 基于 情感 分 析 技术 的 谣言 在 情感 分 析 技术 的 应 用 方面 ,主要 应 用 有 用 户 意 
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见 挖 掘 站 、 电 视 节 目 评分 预测 趾 、 股 票 市 场 价格 预测 中 
等 ,但 是 尚未 见 应 用 情感 分 析 技 术 识 别 谣言 的 相关 
人 研究。 
2.20 ”谣言 识别 技术 

目前 谣言 检测 主要 采用 机 器 学 习 方 法 ， 两 个 核心 
步骤 为 谣言 特征 提取 及 分 类 需 训 练 ,最 后 利用 训练 的 
分 类 器 进行 语言 识别 。 

毛 二 松 等 中 提出 一 种 基于 深层 特征 和 集成 分 类 器 
的 微 博 谣言 检测 方法 ,由 于 抽取 的 特征 具有 明显 微 博 平 
台 倾 向 性 ,该 检测 方法 应 用 平台 有 待 拓展 。Qazvinian 55^ 
通过 提取 Twitter 谣言 文本 中 的 浅 层 文本 特征 、 元 素 特 
征 和 行为 特征 ,构建 多 个 贝 叶 斯 分 类 器 和 集成 分 类 器 ， 
以 识别 Twitter 中 的 谣言 。Kwon 等 5 提出 一 种 基于 不 同 
时 间 序 列 的 谣言 探测 方法 ,研究 结果 表明 在 谣言 传播 的 
不 同时 期 , 选取 不 同 特征 将 影响 谣言 识别 效果 。 

机 器 学 习 方 法 的 核心 是 构建 良好 分 类 器 。 分 类 器 
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了 谣言 的 主题 与 特征 : 在 主题 方面 , 谣言 的 叙事 主题 
分 为 健康 类 、 时 政 类 和 社会 类 ,其 中 健康 类 主题 在 所 
有 微 信 谣言 文章 数量 中 占 主体 地 位 ; 在 特征 方面 , 绝 
大 部 分 谣言 基本 上 都 是 针对 公众 感到 恐惧 、 焦 虑 或 担 
忧 的 议题 诉 诸 丸 怖 说 服 ， 这 些 谣言 标题 内 容 叙 述 大 
张 、 语 言 口 语 化 、 缺乏 科学 严谨 性 并 试图 采用 “情感 策 
Wi", Maze Ih o 

基于 此 , 笔者 认为 谣言 与 非 谣言 之 间 具 有 情感 倾 
向 冲突 , 这 是 本 文 基于 情感 分 析 技术 的 谣言 检测 方法 
的 理论 依据 。 
32 方法 框架 设计 

本 文 将 具有 以 下 特征 的 谣言 定义 为 “简单 谣言 ”: 
内 容 简单 、 缺 乏 复 杂 的 逻辑 推理 , 文本 直接 对 某 件 事 
物 做 出 好 、 坏 评价 , 并 且 评 价 的 情感 倾向 非常 明显 。 
本 文 提出 基于 情感 分 析 的 谣言 识别 技术 主要 用 于 识 
别 简单 谣言 。 计 算 不 同 质量 信息 源 文本 的 情感 值 及 其 


效果 依赖 于 训练 集 及 特征 选择 ,时 间 与 人 力 成 本 较 


情感 差异 ， 如果 情感 差异 过 大 ， 则 说 明 高 、 低 质量 信 


高 。 本 文 基于 情感 分 析 技 术 , 提出 通过 不 同 质量 信息 
源 的 情感 冲突 来 识别 谣言 的 方法 。 


3 ”基于 情感 分 析 的 谣言 识别 方法 设计 


3.1 理论 依据 
谣言 具有 一 定 的 异常 情感 特征 。 张 志 安 等 09 总 结 


寺 定 主题 的 低 特定 主题 的 高 


息 源 对 同一 事物 的 情感 倾向 不 同 , 假设 高 质量 信息 
源 更 可 信 ， 认 为 低 质 量 信息 源 的 信息 属于 谣言 ， 达 
到 识别 谣言 的 目的 。 基 于 情感 分 析 技 术 的 谣言 识别 
方法 包括 4 个 模块 : 高 低 质量 信息 源 界定 、 文 本 预 
处 理 、 文 本 情感 值 计算 和 文本 谣言 识别 ， 总 体 流程 
框架 如 图 1 所 示 。 
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质量 信息 源 质量 信息 源 


通用 情感 词典 


站 “| 信息 源 文本 正 
负 情 感 得 分 


FE 题 
相关 名 
文本 预 处 理 


(1) 高 、 低 质量 信息 源 的 界定 
界定 高 质量 信息 源 和 低 质量 信息 源 是 准确 识别 
谣言 的 基础 。 目 前 , 对 信息 源 的 评价 一 般 有 两 种 评价 
方法 : 直接 评价 法 和 间接 评价 法 07。 

四 直接 评价 法 一 般 通 过 建立 指标 评价 体系 的 方法 ， 对 
不 同 信 息 来 源 媒介 每 一 项 指标 进行 打分 综合 各 项 指标 对 
信息 源 进行 评价 。 


否定 词 || summa 
了 


专 有 名 词 
情感 词典 


特定 主题 低 质 量 
信息 源 文本 正 
负 情 感 得 分 


文本 情感 值 计算 


图 1 基于 情感 分 析 技 术 的 谣言 识别 方法 的 总 体 框 架 


@@ 间 接 评价 法 通过 信息 用 户 来 评价 信息 源 ， 以 调查 表 
的 方式 调查 用 户 对 信息 源 的 需求 和 利用 情况 ,其 评价 较为 
客观 ,但 是 工作 量 大 , 需要 信息 用 户 的 高 度 配 合 。 

在 实际 应 用 中 ,可 结合 客观 条 件 ,选择 合适 的 评 
价 方法 评价 信息 源 ,从 而 界定 高 、 低 质量 信息 源 。 

(2) 文本 预 处 理 

在 疑似 谣言 文本 中 ,其 针对 不 同 的 对 象 可 能 具有 
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不 同 的 情感 倾向 ， 如 果 计 算 疑 似 谣言 文本 的 整体 情感 
倾向 , 则 会 降低 情感 计算 准确 性 。 因 此 在 情感 计算 前 
过 滤 与 特定 对 象 无 关 的 句子 , 再 进行 分 词 , 便于 后 续 
情感 词 匹配 。 

(3) 文本 情感 值 计算 

基于 情感 词典 的 情感 分 析 方 法 关键 步 又 之 一 为 
构建 情感 词典 。 根 据 研究 目的 、 主 题 的 不 同 ,研究 者 
可 以 采用 不 同 的 通用 情感 词典 及 专 有 名 词 词典 。 专 有 
名 词 是 指 研究 不 同学 科 或 主题 时 会 涉及 的 对 应 领域 专 
有 的 名 词 词汇 。 对 于 专 有 名 词 ， 不 能 直接 计算 其 情感 
值 ， 需 要 借助 情感 动词 词典 。 程 度 副 词 会 影响 情感 程 
度 表 达 ， 和 否定 词 会 影响 情感 极 性 表达 , 因此 在 计算 情 
感 值 的 过 程 中 需要 识别 程度 副词 和 否定 词 来 修正 情感 
(E, 本文 借用 杜 嘉 忠 等 中 提出 的 距离 与 词性 的 方法 计 
算 文本 的 情感 值 , 具体 的 情感 值 计算 流程 如 图 2 所 示 。 


待 分 析 的 疑似 
谣言 文本 
(已 分 词 处 理 ) 


情感 值 极 性 修正 + 一 一 一 ”情感 词 抽 取 


Ec. s) | 
情感 值 强 度 调 整 一 "| 正 负 值 情 感 得 分 


图 2 疑似 谣言 文本 的 情感 值 计 算 流 程 


依据 图 2 流程 对 疑似 谣言 文本 的 情感 值 进 行 计 
算 ， 最 初 每 个 谣言 文本 都 有 一 个 正 向 情感 得 分 positive 
和 一 个 负 向 情感 得 分 negative, 其 初始 值 均 为 0; 每 个 
情感 词 的 初始 情感 极 性 转折 次 数 reverse. Timesentiiori™ 
0, 转折 标志 reversesowmanr1 情感 程度 系数 初始 为 
degree-l; 对 于 每 一 个 情感 词 SentiWord， 其 在 情感 词 
典 中 的 得 分 为 SentiDicswimom， 对 于 每 一 个 程度 词 
DegWord， 其 程度 系数 为 DegDicpogyora。 

对 于 通用 情感 词典 计算 情感 值 ,其 具体 流程 为 
遍历 疑似 谣言 文本 词 表 ， 如 果 词 语 与 通用 情感 词典 中 
词汇 匹配 , 则 以 该 情感 词 为 中 心 。 

@D 寻 找 并 统计 该 情感 词 前 5 个 词 及 该 情感 词 后 两 个 词 
范围 内 否定 词 的 个 数 reverseTiMeseniwora, 即 如 果 reverse 
Timesonimorad 是 奇数 ， 修 正 情感 极 性 ， 令 reversessumoa7 —; 
否则 不 需 修 正 情感 极 性 。 
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@) 寻 找 该 情感 词 前 5 个 词语 及 该 情感 词 后 两 个 词语 范 
围 内 的 程度 副词 DegWord, 用 degree 乘 以 匹配 程度 词语 在 程 
度 级 别 词典 中 的 情感 强度 系数 ， 如 公式 (1) 所 示 。 
degree = degree x DegDicpoowora (1) 
图 分 别 累加 对 应 的 正 、 负 面 情感 得 分 ,规则 如 公式 (2) 
， 其 中 SentimentValue 代表 正面 情感 得 分 postive 或 负面 


感 得 分 negative,， 当 SentiDicsonimoraXreversesenimord>0， 情感 


SentimentValue = > SentiDicSentiWord x degree 
x reverseSentiWord (2) 

对 于 专 有 名 词 词典 情感 值 计 算 ， 具 体 流 程 与 通用 
情感 词 词典 情感 值 计算 类 似 。 其 区 别 在 于 在 遍历 疑似 
放言 文本 词 表 时 ， 如 果 词 语 匹 配 专 有 名 词 词典 中 的 词 
汇 ,其 不 一 定 具 有 人 情感 表达 , 需 进 一 步 查找 是 否 具有 
修饰 专 有 名 词 的 情感 动词 。 如 果 有 , 则 情感 动词 的 情 
感 值 为 Score。 以 专 有 名 词 词汇 为 中 心 ， 寻找 名 词 的 修 
饰 词 与 否定 词 ， 累加 最 后 对 应 的 正 负 情感 得 分 。 具 体 
步骤 如 下 。 

遍历 疑似 谣言 文本 词 表 ， 如 果 词 语 匹配 到 专 有 名 词 词 
典 中 的 词汇 。 

四 寻找 该 专 有 名 词 前 后 的 词语 查找 修 饰 该 词 的 正 向 
情感 动词 或 负 向 情感 动词 , 情感 得 分 为 Score。 

@) 若 满足 条 件 (D， 则 继续 寻找 并 统计 该 专 有 名 词 词汇 
前 面 5 个 词语 及 该 词汇 后 两 个 词语 的 范围 内 否定 词 的 个 数 
reverseTiMespeNoun 3€. reverseTimesyeNou 是 奇数 ,修正 情感 
HE, A reverseyewow 王 -1， 否 则 不 需要 修正 情感 极 性 。 

@@ 寻 找 该 专 有 名 词 前 $ 个 词语 及 该 专 有 名 词 后 两 个 词 
语 范 围 内 的 程度 级 别 词汇 , JH degree 乘 以 匹配 程度 词语 在 
程度 级 别 词典 中 的 情感 强度 系数 ， 如 公式 (3) 所 示 。 

degree = degree x DegDicDegWora (3) 

@ 分 别 累加 对 应 的 正 、 负 面 情感 得 分 , 规则 如 公式 (4) 

青 感 得 分 累计 到 positive, 


所 示 ， 当 Scorexreversegwo70, t 
否则 情感 得 分 累计 到 negative. 
SentimentValue = 2 Score x degree x reverse speNoun 
(4) 
(4) 文本 谣言 识别 
通过 文本 情感 值 计算 模块 , 对 于 每 条 文本 , 均 有 
一 个 情感 评分 结果 S —(positive, negative)。 文 本 长 度 、 
情感 词语 密度 会 影响 S 的 值 , 需要 归 一 化 最 初 情感 计 
算得 分 如 公式 (5)- 公 式 (7) 所 示 。 
假设 最 后 每 条 文本 的 情感 得 分 : 
S =(Spos, Sneg) (5) 


其 中 ， 


| positive | 


pos "- P (6) 
| positive | + | negative | 
而 See 可 用 Spos 表示 : 
Sneg =1— Sos (7) 


因此 Snee 和 Spos 两 者 从 不 同方 向 表达 情感 程度 ， 
本 文 仅 以 5S, 表示 文本 情感 得 分 。 对 于 不 同文 本 i 和 
j, 规定 它们 之 间 的 情感 差异 值 D 如 公式 (8) 所 示 。 


D =| LN US | (8) 
对 于 每 个 谣言 案例 来 说 , 设 同等 质量 信息 源 (高 


质量 或 低 质 量 ) 的 信息 源 文本 有 n 条 ,那么 对 应 的 质量 
自 


$9, = -5 Sys (9) 

其 中 , o 取 值 为 H Fees nike BUSCAS, OWL 
代表 低 质 量 信息 源 文本 。 

需要 说 明 的 是 , 存在 一 些 文本 总 情感 得 分 较 小 的 
情况 , 表明 文本 的 情感 词 命中 太 少 ,情感 倾向 难以 判 
断 。 本 文 设 定 : 如 果 情 感 评分 总 分 |positivel+|negative| 
< 10, 则 该 文本 将 不 计 入 最 后 的 倾向 计算 。 

将 每 个 谣言 案例 最 终 得 到 的 高 质量 信息 源 得 分 
与 低 质量 信息 源 得 分 做 情感 差异 评判 ,对 于 高 、 低 质 
量 信息 源 得 分 差异 六 ， 如 公式 (10) 所 示 。 

DA SPs — Sh,, | (10) 

Dă D'&a 时 ， 认 为 高 、 低 信息 源 在 同一 个 谣言 主题 的 
核心 事物 上 情感 倾向 一 致 ， 认 为 低 质 量 信息 源 的 信息 不 属 
TRS; 

(Q3 a«D'—f 时 ， 认 为 两 个 文本 之 间 的 倾向 大 体 一 致 
低 质 量 信息 源 可 能 存在 一 定 的 情感 压 张 , 但 不 属于 谣言 ; 

G3 D'2p 时 ,表示 低 质量 信息 源 情感 与 高 质量 信息 源 
发 生 冲 突 , 认为 低 质量 信息 源 的 说 法 属于 谣言 。 

a. B 的 具体 取 值 由 实验 素材 以 及 具体 谣言 主题 决 
定 , 目的 是 最 大 程度 地 划分 情感 的 一 致 程度 。 


4 实验 及 结果 分 析 评 价 


41 高 低 质 量 信息 源 界定 

本 文采 用 直接 评价 法 界定 信息 源 质 量 的 高 低 , 评 
价 指标 包括 文本 错误 率 、 编 辑 者 身份 、 是否 具 有 审核 、 
发 布 、 反 馈 和 举报 机 制 。 

综合 以 上 评价 指标 , 选 定 维基 百科 中 、 知 乎 站 和 
果 壳 网 "三 个 平台 作为 高 质量 信息 源 , 这 三 个 网 站 的 
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共同 点 为 具有 审核 机 制 、 编 辑 者 为 领域 专业 者 、 具 有 
举报 机 制 和 评审 机 制 等 ,其 质量 较 高 ， 其 中 维基 百科 
在 重大 错误 的 数量 上 与 《大 英 百 科 全 书 》 几 乎 相等 中 
有 具 有 权威 性 。 利 用 搜索 引 警 (如 百度 路 、 搜 狗 中 等 ) 搜 
索 出 的 相关 主题 结果 (除去 来 源 为 以 上 三 个 网 站 的 结 
R), 作为 低 质量 信息 源 。 

42 ”高 低 质 量 信 息 来 源 

“流言 百科 请 ?是 由 果 壳 网 开发 的 一 个 较为 权威 的 
辟谣 平台 , 在 此 辟谣 平台 上 , 符合 本 文 制定 的 “简单 谣 
言 "标准 的 谣言 在 “食品 养生 ”"、“ 医 学 健康 ”这 两 个 领域 
的 数量 最 多 。 从 流言 百科 上 寻找 与 “健康 类 ”和 “养生 类 ” 
的 文本 内 容 相关 的 谣言 案例 , 关于 该 谣言 的 高 质量 文 
本 , 则 从 果 壳 网 、 知 乎 .维基 中 通过 关键 词 搜寻 而 来 ,对 
于 每 个 谣言 案例 ,要求 以 上 三 个 网 站 至 少 有 一 处 含有 相 
关 文 本 内 容 ; 低 质 量 文本 则 从 普通 搜索 引擎 搜 到 (剔除 
引用 或 直接 来 自 以 上 三 个 网 站 的 内 容 ) 的 结果 中 获得 ,对 
每 个 谣言 案例 ,要求 至 少 有 4 条 不 重复 文本 。 

在 2017 年 1 月 至 2017 年 3 月 采集 数据 由 于 低 
质量 信息 源 各 不 相同 , 暂 未 实现 数据 自动 抓 取 ,因此 
采用 人 工 收集 的 手段 ; 而 高 质量 信息 源 关 于 特定 对 象 
的 内 容 较 少 重 复 论 述 , 所 以 数据 量 偏 少 。 在 检索 过 程 
H, 大 量 谣言 对 象 在 高 质量 信息 源 没 有 搜索 结果 , 或 
者 在 低 质 量 信息 源 处 不 满足 数量 要 求 ， 舍弃 ,导致 抓 
取 一 个 谣言 案例 需要 耗费 较 大 的 检索 资源 与 数据 整理 
时 间 。 最 终 收集 了 30 个 谣言 案例 , 共有 232 条 数据 参 
与 实验 , 其 中 有 48 条 高 质量 信息 、184 条 低 质 量 信息 ， 
平均 每 个 疑似 谣言 的 案例 有 1.6 条 高 质量 信息 ,6.1 条 
低 质量 信息 。 

4.3 ”情感 词典 建立 

本 文 构建 通用 情感 词典 、 专 有 名 词 词典 、 情 感动 
词 词典 、 和 否定 词 表 和 修饰 词 表 以 供 情感 词 匹配 计算 情 
不 值 。 基 于 大 连理 工大 学 中 文 情 感 词汇 本 体 库 中 建立 
通用 情感 词典 , 该 情感 词典 共 收 录 27 386 个 情感 词汇 ， 
并 且 具 有 词汇 情感 强度 、 情 感 类 别 和 极 性 标注 。 该 本 
体 库 的 标注 中 , 0 代表 中 性 , 1 代表 讲义 , 2 代表 贬义 , 3 
代表 兼 有 蛮 几 两性。 每 个 词 的 情感 强度 分 为 1, 3, 5, 7, 
9 五 档 , 9 表示 强度 最 大 , 1 为 强度 最 小 。 

本 文 将 情感 极 性 为 1 的 11 229 个 词语 纳入 积极 情 
感 词典 , 情感 极 性 为 2 的 10 783 个 词语 纳入 消极 情感 
词典 。 其 次 ， 对 于 情感 极 性 为 0 的 5374 个 词语 , 将 其 
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情感 表示 “ 乐 "“ 好 ”的 词语 纳入 积极 情感 词典 , 将 情 
感 表示 “ 怒 ”"、“ 衣 ”"、“ 恨 "、“ 恶 "、“ 惊 ”的 词语 纳入 消极 
青 感 词典 。 而 情感 极 性 为 3 的 词语 , 情感 极 性 复杂 , 总 
计 只 有 78 个 词汇 , 舍弃 。 每 个 词 的 情感 评分 取 本 体 库 
中 对 应 的 情感 强度 值 。 

在 实验 过 程 中 ,， 人工 补充 了 通用 情感 词 中 没有 的 
词 ， 如 “ 明 目 ”、“ 不 法 分 子 ” 等 。 评 分 标准 采用 对 比 评分 
法 ,如 :“ 奸 商 ” 与 “不 法 分 子 ” 的 情感 倾向 类 似 ,“ 奸 商 ” 的 
评分 在 通用 情感 词典 中 为 -5 分 ， 而 “不 法 分 子 ” 的 批评 
意味 比 “奸商 ”更 强烈 , 故 予 “不 法 分 子 ” 的 评分 是 -7 分 。 

在 建立 领域 专 有 名 词 词典 方面 , 由 于 本 文选 取 的 
言 息 来 源 文本 多 为 养生 类 、 疾 病 类 和 食品 类 与 人 体 健 
康 有 关 的 疑似 谣言 文本 。 因 此 建立 的 词典 为 与 人 体 疾 
病 相关 的 专 有 名 词 词典 , 基于 百度 文库 专业 资料 分 类 
下 的 《疾病 名 称 大 全 》m", 通过 文本 处 理 过 程 中 的 观 
察 与 查 缺 补漏 ， 人工 补充 了 52 个 常见 的 疾病 主题 的 词 
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果 一 致 ， 高 质量 信息 源 与 低 质量 信息 源 对 于 同一 件 事 
物 的 情感 倾向 有 明显 的 不 同 。 例 如 低 质量 信息 源 的 疑 
似 谣言 文本 “牛奶 有 巨大 危害 ”表示 牛奶 危害 健康 ， 人 
工 判断 情感 为 负面 ,机 器 判断 情感 得 分 为 0.354; 而 高 
Witt fei B US Ko FA BUILT BRE BUE, ATAK 
情感 为 正面 , 机 器 判断 情感 得 分 为 0.885。 人 工 认为 情 
感 不 一 致 ， 属 于 谣言 ; 而 机 器 计算 情感 差异 DEN 
0.531203, 认为 该 条 属于 谣言 。 

(2) 典型 判断 错误 情境 及 实例 

一 般 而 言 ， 低 质量 信息 源 的 情感 直接 ,情感 倾向 
明显 ; 而 高 质量 信息 源 则 经 常 出 现 推 理 , 转折 的 文本 
(如 先 提出 可 能 存在 的 问题 , 然后 在 后 续 的 文本 中 通过 
举例 或 者 推理 的 方式 给 予 解答 )。 现 有 的 处 理 方法 无 法 
检测 出 段落 之 间 的 互相 否定 关系 ， 导致 高 质量 信息 源 
的 情感 判断 失误 , 引起 错 判 。 如 :“ 阿 斯 巴 甜 致癌 , 食用 
危害 大 ”这 条 谣言 ， 低 质量 信息 源 表示 阿 斯 巴 甜 会 损 


语 。 而 相关 正 、 负 面 情 感动 词 词典 则 是 对 疾病 有 治疗 
作用 或 加 剧 作用 的 动词 , 如 治愈 表示 治疗 作用 ， 而 加 
重 表示 加 剧 作 用 。 此 外 , 本 文 结合 已 有 情感 分 析 研究 
及 文本 预 处 理 过 程 的 查 漏 补充 ， 建 立 了 本 实验 的 程度 
副词 词 表 和 和 否定 词 表 。 
44 谣言 识别 结果 

根据 第 3 节 的 方法 设计 , 利用 43 节 建 立 的 情感 
词典 , 计算 同一 谣言 主题 的 案例 下 的 不 同 质量 来 源 谣 


言 文本 的 情感 差异 ， 其 中 情感 差异 阔 值 a 取 0.1、B 取 
0.3。 最 终 得 到 的 谣言 识别 结果 如 表 1 所 示 。 


表 1 谣言 识别 结果 


害 神 经 系统 ， 导 致 记忆 力 衰 退 视力 消失 等 症状 ; 高 质 
量 信 息 源 则 表示 “ 阿 斯 巴 甜 作为 添加 剂 使 用 是 安全 
的 ”%。 从 以 上 观点 来 看 , 不 论 从 机 带 通 过 情感 词典 匹配 ， 
还 是 人 工 判断 ,高 质量 信息 源 都 属于 正 向 情感 。 然 而 ， 
高 质量 信息 源 中 辟谣 文本 特征 是 : 先 提出 存在 “有 许 
多 指控 声称 阿 斯 巴 甜 的 神经 毒性 作用 ， 导 致 神 经 或 精 
神 症 状 ” 的 谣言 ， 再 另 起 一 段 进行 辟谣 性 的 解释 ， 导 致 
负面 情感 虚 高 , 机 器 判 错 。 

(3) 存在 争议 谣言 解释 

以 高 质量 信息 源 的 信息 作为 标准 , 故而 当 不 同 的 
高 质量 信息 源 之 间 信 息 存在 冲突 时 ,可 能 是 该 条 文本 


实际 是 谣言 实际 不 是 谣言 
预测 是 谣言 15 0 
预测 不 是 谣言 6 8 


指示 的 知识 在 科学 上 暂时 没有 一 个 统一 的 说 法 , 无 法 
通过 人 工 判 定 文本 所 述 内 容 是 否 属 于 语言 。 
本 实验 中 ,“ 蔓 越 莓 能 预防 泌尿 道 疾 病 ?这 条 疑似 


疑似 谣言 共计 30 条 , 实验 共有 23 条 谣言 的 结果 
判断 正确 , 其 中 预测 和 人 工 判断 都 属于 谣言 的 共计 15 
条 , 预测 和 人 工 判 断 都 不 属于 谣言 的 共计 8 条 , 6 Rii 
言 的 结果 判断 错误 , 1 条 谣言 的 结果 存在 争议 ,排除 在 
总 结果 之 外 , 详细 的 判定 结果 可 参看 文 末 支 撑 数 据 清 
单 。 本 文 将 选取 典型 判断 正确 文本 及 其 实例 、 典 型 判 
断 错 误 文本 及 其 实例 和 存在 争议 谣言 进行 讨论 。 

(1) 典型 判断 正确 情景 及 实例 

典型 判断 正确 的 情景 为 : 机 器 判断 与 人 工 判断 结 
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谣言 的 人 工 判断 结果 有 争议 ， 因 为 高 质量 信息 源 之 间 
情感 发 生 了 冲突 : RER RARR S REER) 
泌尿 道 疾病 可 能 有 一 定 作 用 , 但 还 没有 具体 证 据 支 持 ， 
况且 直接 靠 划 越 莓 治 病 是 不 切实 际 的 ， 属 于 负面 情感 ; 
相反 , 维基 百科 则 表示 为 “ 营 越 奏 汁 已 被 证 实 可 有 效 
降低 心血 管 疾病 、 牙 周 病 、 胃 溃疡 与 癌症 等 疾病 的 震 
患 风 险 ”, 属于 正面 情感 。 这 说 明 , 蔓 越 每 的 治 病 功 效 
可 能 在 医学 上 尚 有 争议 , 并 没有 一 个 统一 的 判断 标 
准 。 人 工 无 法 判断 高 质量 信息 源 的 总 体 情感 倾向 , 故 
该 文本 为 争议 文本 。 


201712.01604v1 


chinaXiv 


45 谣言 识别 结果 评价 

在 结果 评价 中 , 本 文 参 阅 文 献 [27] 所 采用 的 查 全 
率 、 查 准 率 和 下 值 用 于 评价 此 次 实验 结果 ,具体 如 表 2 
和 公式 (11)- 公 式 (16) 所 示 。 


表 2 谣言 检测 分 类 性 能 评价 列表 
实际 是 谣言 实际 不 是 谣言 
预测 是 谣言 A B 
预测 不 是 谣言 C D 
谣言 文本 查 准 率 书 .= (11) 
7 A+B 
放言 文本 查 全 率 必 二 (12) 
A+C 
PERE 2R- x P 
谣言 文本 万 值 Fl; = (13) 
Rr+ Pr 
ex TT D 
非 谣 言 文本 查 准 率 P.-—— — (14) 
C+D 
Me c3 à D 
非 谣言 文本 查 全 率 Rn = 一 一 一 (15) 
B+D 
a 2Rnx Pn 
FEKA F AË Fln = (16) 
n+ 


由 于 存在 争议 的 文本 无 法 判断 正确 性 , 因此 在 统 
计 中 将 其 剔除 ,最终 该 实验 的 评价 指标 计算 结果 如 表 
3 所 示 。 


表 3 谣言 检测 分 类 性 能 评价 结果 


目标 值 

P, 100% 
R, 71.42% 
Fl, 83.34% 
P, 57.14% 
R, 100% 
Fl, 72.73% 


由 表 3 可 以 看 到 , 基于 高 、 低 信息 源 情感 的 一 致 
性 提出 的 识别 谣言 方法 , 在 谣言 文本 预测 上 的 F 值 是 
83.34%， 查 全 率 为 71.42%, 查 准 率 为 100%; 在 非 谣言 
文本 预测 上 的 忆 值 为 72.73%, 查 全 率 为 100%, 查 准 率 
为 57.14%。 其 中 , 在 非 谣言 文本 预测 上 查 准 率 较 低 ， 
其 原因 主要 是 非 谣 言 文本 具有 严 阐 的 推理 逻辑 , 会 对 
研究 对 象 各 个 属性 进行 性 质 说 明 。 本 文 提出 在 对 疑似 
谣言 文本 的 情感 计算 过 程 中 , 并 没有 提取 某 对 象 特定 
属性 的 情感 值 , 由 此 导致 相关 判定 失误 。 今 后 的 研究 
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可 采用 更 加 细 粒 度 的 情感 分 析 技术 进行 谣言 识别 。 
此 实验 评估 结果 表明 , 可 用 基于 高 、 低 质量 信息 
源 情感 一 致 性 计算 识别 特定 主题 的 谣言 。 


5 结 i& 


基于 情感 强烈 的 谣言 与 非 谣 言 之 间 存 在 情感 冲 
突 的 理论 依据 ， 本 文 提出 基于 情感 分 析 方 法 识 2 
谣言 的 方法 , 该 方法 包括 4 个 模块 : 高 低 质量 信息 
界定 、 文 本 预 处 理 、 | 
为 了 验证 方法 的 适用 性 , 采用 直接 评价 法 界定 高 低 质 
量 信息 源 ， 界 定 知 乎 、 维 基 百 科 和 果 壳 网 的 为 高 质量 
言 息 源 ， 人 工 抓 取 30 个 健康 类 、 养 生 类 领域 谣言 案例 
文本 。 进 一 步 构建 通用 情感 词典 、 专 有 名 词 词典 等 情 
感 值 计算 的 辅助 词典 , 计算 疑似 谣言 文本 的 情感 值 。 
通过 计算 来 自 高 、 低 质量 信息 源 的 关于 同一 主题 的 疑 
似 谣言 文本 的 情感 差异 值 ， 判定 来 自 低 质量 信息 源 的 
文本 是 否 属于 谣言 , 最 终 正确 判断 了 23 个 谣言 案例 。 
在 方法 评估 上 , 本 文 提出 的 谣言 识别 方法 能 够 较 好 地 
识别 谣言 。 

本 文 存在 的 不 足 之 处 在 于 设 定 的 情感 计算 方法 
在 简单 谣言 识别 上 效果 良好 , 但 是 对 于 语法 规则 复杂 
的 疑似 谣言 文本 会 存在 误 判 情况 。 今 后 的 研究 将 考虑 
实现 不 同 来 源 的 信息 源 的 文本 自动 抓 取 , 增加 复杂 的 
情感 计算 规则 ,以 识别 更 加 复杂 的 谣言 。 
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Detecting Online Rumors with Sentiment Analysis 


Shou Huanrong Deng Shuqing Xu Jian 
(School of Information Management, Sun Yat-Sen University, Guangzhou 510006, China) 


Abstract: [Objective] This paper aims to identify rumors automatically with the help of sentiment analysis. [Methods] 
First, we chose high-quality and low-quality information sources. Then, we calculated the sentiment value and 
difference between the information from different sources. Based on the assumption that the information from 
high-quality source was more reliable, information from low-quality channels could be listed as rumor if the sentiment 
difference between them exceeded the pre-set threshold. [Results] We applied the proposed method to information on 
food and health as well as health and medical issues, and then successfully identified twenty-three rumors from thirty 
suspected cases. The accuracy rate of rumor detection was 76.6796, the F-value was 83.34%, the recall and precision 
was 71.4296 and 100%, respectively. For non-rumor message, the F-value, recall, and precision were 72.73%, 10096 and 
57.14%. [Limitations] We did not extract the data automatically from different sources and the sample size was 
relatively small. [Conclusions] Sentiment analysis could help us identify rumors effectively. 
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